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Beschreibung 

Verfahren zum Aufbereiten einer Datenbank far die automati- 
sche Sprachverarbeitung 

5 

Die Erfindung betrifft ein Verfahren zum Aufbereiten einer 
Datenbank fUr die automatische Sprachverarbeitung, sowie ein 
Verfahren zum Trainieren eines neuronalen Netzwerkes zum Zu- 
ordnen von Graphemen zu Phonemen fUr die automatische Sprach- 
10 verarbeitung und ein Verfahren zum Zuordnen von Graphemen zu 
Phonemen bei der Synthetisierung von Sprache bzw. bei der Er- 
kennung von Sprache. 



Es ist bekannt, neuronals Netzwerke fur die Synthetisierung 
15 von Sprache zu verwenden, wobei die neuronalen Netzwerke ei- 
nen Text, der in einer Folge von Graphemen dargestellt ist, 
in Phoneme umsetzen, welche von einer entsprechenden Sprach- 
ausgabevorrichtung in die korrespondierenden akustischen Lau- 
te gewandelt werden. Grapheme sind Buchstaben beziehungsweise 
20 Buchstabenkombinationen, welchen jeweils ein Laut, das Pho- 

nem, zugeordnet ist. Vor einem erstmaligen Einsatz des neuro- 
nalen Netzwerkes muB dieses trainiert werden. Dies erfolgt 
ublicherweise durch Verwendung einer Datenbank, die die Gra- 

^^^^ phem-Phonem-Zuordnungen enthait, wodurch festgelegt ist, wel- 

^^^^5 chem Graphem welches Phonem zugeordnet ist. 

Die Erstellung einer solchen Datenbank bedeutet einen erheb- 
lichen zeitlichen wie auch geistigen Aufwand, da derartige 
Datenbanken in der Regel nur mit Hilfe eines Sprachexperten 
30 aufgebaut werden konnen. 



Der Erfindung liegt die Aufgabe zugrunde ein Verfahren zu 

schaffen, mit welchen auf einfache Art und Weise eine Gra- 

phem-Phonem-Zuordnungen enthaltende Datenbank erstellt werden 
35 kann. 
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Die Aufgabe wird durch ein Verfahren mit den Merkmalen des 
Anspruchs 1 gelost. Vorteilhafte Ausgestaltungen der Erfin- 
dung sind in den UnteransprUchen angegeben. 

Das erf indungsgemaBe Verfahren zum Aufbereiten einer Daten- 
bank fUr die automatische Sprachverarbeitung geht von einer 
Datenbank aus, die WQrter in Form von Graphemen und Phonemen 
enthait. FUr die meisten Sprachen existieren bereits derarti 
ge Datenbanken. Diese Datenbanken sind WorterbUcher, die die 
warter in Schreibschrif t (Grapheme) und in Lautschrift (Pho- 
neme) enthait en. Diesen Datenbanken fehlt jedoch die Zuord- 
nung der einzelnen Phoneme zu den entsprechenden Graphemen 
Diese Zuordnung wird erf indungsgemafi automatisch durch die 
folgenden Schritte ausgeftihrt: 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
ordnungen ergibt oder lediglich am Wortende ein oder mehrere 
Grapheme vorhanden sind, welchen kein Phonem zugeordnet ist, 
und Zusammenfassen mehrerer Grapheme zu einer Graphemeinhei^^ 
und Zuordnen eines Graphems zu der Phonemeinheit, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengef aBt werden und ihnen 
ein einziges Graphem derart zugeordnet wird, daB die Ubrigen 
Graphem- Phonem- Zuordnun gen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordn;angen entspricht, 

d) Zuordnen der bisher nicht zuordbaren WOrter, wobei 
die Worter nach den unter c) ermittelten Phoneme inhei ten 
und/oder den unter b) ermittelten Graphemeinheiten untersucht 
werden und die Phoneme zu den Graphemen unter BerUcksichti- 
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gung der Phoneme inhei ten und/oder Grapheme inhe it en zugeordnet 
we r den, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
gefiihrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden. 



Erf indungsgemaB werden zunachst WSrter untersucht, die die- 
selbe Anzahl Grapheme und Phoneme besitzen. Die Grapheme die- 
10 ser Worter werden den Phonemen paarweise zugeordnet, wobei in 
einem darauf f olgenden Korrekturschritt die Zuordnungen der 
Worter geloscht werden, die im Widerspruch zu den weiteren 
Zuordnungen stehen. 

15 Mit diesem ersten Zuordnungsvorgang kann eine Groiizahl der 

Worter abgearbeitet werden und zudem statistisch signifikante 
Zuordnungen erzielt werden, die eine Oberprufung im Korrek- 
turschritt erlauben und die auch eine Oberpriifung der weite- 
ren zu erstellenden Zuordnungen in den nachf olgenden Schrit- 

2 0 ten erlauben. 




Danach werden die Worter untersucht, bei denen sich die An- 
zahl der Phoneme gegeniiber der Anzahl von Graphemen unter- 
scheidet. Bei Wortern mit mehr Graphemen als Phonemen werden 
mehrere Grapheme zu Graphemeinheiten zusammengef afit und bei 
Wortern mit weniger Graphemen als Phonemen werden Phoneme zu 
Phonemeinheiten zusammengef afit . 



30 



Nach Beendigung dieser Schritte werden die bisher nicht zu- 
ordbaren Worter tiberpruft, wobei hierbei die ermittelten Pho- 
nemeinheiten und/oder die ermittelten Graphemeinheiten be- 
rucksichtigt werden. 



Mit dem erf indungsgemalien Verfahren wird somit schrittweise 
35 automatisch ein ^Zuordnungswissen"" erstellt, das zunachst auf 
paarweisen Graphem-Phonem- Zuordnungen beruht und in das im 
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Laufe des Verfahrens auch Graphemeinheiten und Phonemeinhei- 
ten einbezogen werden. 

Das erfindungsgeinaBe Verfahren kann fur jede beliebige Spra- 
che angewandt werden, ftlr die bereits eine elektronisch les- 
bare Datenbank besteht, die Worter in Form von Graphemen und 
Phonemen enthalt, wobei eine Zuordnung zwischen den Phonemen 
und Graphemen nicht notwendig ist. Der Einsatz von Experten- 
wissen ist nicht erforderlich, da das erf indungsgemafie Ver- 
fahren vollautomatisch ausgefUhrt wird. 

Mit der erf indungsgemafi erstellten Datenbank kann dann ein 
neuronales Netzwerk trainiert werden, mit dem die Graphem- 
Phonem-Zuordnungen bei der Synthetisierung oder Erkennung von 
Sprache automatisch ausgefUhrt werden. 

Die Erfindung wird nachfolgend naher anhand eines Ausftih- 
rungsbeispieles erlautert, das in den Zeichnungen dargestellt 
ist. In diesen zeigen; 

Fig. 1 ein Ausf uhrungsbeispiel des erf indungsgemalien Ver- 
fahrens in einem Flufidiagramm, 

Fig. 2 schematisch ein neuronales Netzwerk zum Zuordnen 
von Graphemen zu Phonemen, und 

Fig. 3 schematisch eine Vorrichtung zur Ausftihrung des er 
findungsgemSBen Verfahrens. 

Das erfindungsgemaBe Verfahren dient zum Aufbereiten einer 
Datenbank fiir die Sprachsyn these, wobei von einer Ausgangsda- 
tenbank ausgegangen wird, die WSrter in Form von Graphemen 
und Phonemen enthalt. Eine solche Ausgangsdatenbank ist jedes 
Worterbuch, das die Worter sowohl in Schreibschrif t (Graphe- 
me) als auch in Lautschrift (Phoneme) enthalt. Diese W6rter- 
bticher enthalten jedoch keine Zuordnung der einzelnen Graphe- 
me zu den jeweiligen Phonemen. Sinn und Zweck des erfindungs- 
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gemafien Verfahrens ist die Erstellung einer solchen Zuord- 
nung . 

In Fig. 1 ist ein Ausfuhrungsbeispiel des erf indungsgeiaafien 
Verfahrens in einem FluBdiagramm dargestellt. In einem 
Schritt SI wird das Verfahren gestartet. 

Im Schritt S2 werden alle Worter untersucht, die die gleiche 
Anzahl Grapheme und Phoneme besitzen. Die Grapheme dieser 
Worter werden den entsprechenden Phonemen paarweise zugeord- 
net . 



Eine derartige paarweise Zuordnung wird z.B. fur das engli- 
sche Wort „run'' ausgefuhrt, das f olgendermaBen mit seinen 
15 Graphemen und Phonemen dargestellt werden kann: 

Grapheme : r u n 
Phoneme: r A n 

20 Bei „run"^ wird das Graphem ,,r'' dem Phonem „r^\ das Graphem 
,,u"^ dem Phonem ,,A^^ und das Graphem „n^^ dem Phonem ,,n^^ zuge- 
ordnet. Bei dieser paarweisen Zuordnung wird somit jeweils 
ein einziges Graphem einem einzigen Phonem zugeordnet. Dies 
wird fiir alle Worter ausgefUhrt, die die gleiche Anzahl von 
Phoneme und Grapheme besitzen. 

Im nachfolgenden Schritt S3 wird eine Korrektur ausgefuhrt, 
mit der die Zuordnungen der Worter, die im Widerspruch zu dem 
im Schritt S2 ermittelten weiteren Zuordnungen stehen, ge- 
30 loscht werden. Hierzu werden die Haufigkeiten der einzelnen 
Graphem-Phonem-Zuordnungen erfafit und Graphem- Phonem- 
Zuordnungen die nur selten vorkommen werden geloscht. Liegt 
die Haufigkeit einer bestimmten Graphem-Phonem- Zuordnung un- 
ter einem vorbestimmten Schwellwert, so werden die entspre- 
35 chenden Graphem-Phonem-Zuordnungen geloscht, Der Schwellwert 
liegt z.B. im Bereich von einer Haufigkeit von 10 bis 100. Je 
nach Umfang des Vokabulars der Ausgangsdatenbank kann der 
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Schwellwert entsprechend angepafit werden, wobei bei grofieren 
Ausgangsdatenbanken ein hoherer Schwellwert als bei kleineren 
Ausgangsdatenbanken zweckmaBig ist. 

Ein Beispiel fUr eine derartige widersprtichliche Graphem- 
Phonem-Zuordnung ist das englische Wort ,,fire'': 

Grapheme: fire 
Phoneme : f I @ r 

Die Zuordnung des Graphems „r^' zum Phonem „@^^und die Zuord- 
nung des Graphems „e'' ziim Phonem „r'' sind nicht korrekt zu 
ordnet. Diese beiden Zuordnungen treten sehr selten auf, w 
halb ihre Haufigkeit kleiner als der Schwellwert ist, so daJJ 
sie im Schritt S3 geloscht werden. Zudem wird im Schritt S3 
das Wort ,,fire'' wieder als nicht-zugeordnet markiert, so dalJ 
es in einem spateren Zuordnungsschritt wieder untersucht wer- 
den kann . 

Im Schritt S4 werden Worter untersucht, die mehr Grapheme als 
Phoneme besitzen, wobei jeweils ein Graphem einem Phonem in 
Leserichtung (von links nach rechts) zugeordnet wird und die 
verbleibenden Grapheme mit dem letzten Graphem, dem ein Pho- 
nem zugeordnet worden ist, zu einer Graphemeinheit zusammen- 
gefafit werden. Ein Beispiel eines Wortes, das auf diese Art^ 
und Weise korrekt zugeordnet wird, ist das englische Wort V 
„aback^^ : 

Grapheme: a b a ck 
Phoneme: x b @ k 

Im hierauf folgenden Schritt S5 wird wiederum eine Korrektur 
ausgefuhrt, mit der Zuordnungen geloscht werden, die im Wi- 
derspruch zu den bisher ermittelten Zuordnungen stehen, das 
heiBt, Zuordnungen, die nur eine geringe Haufigkeit aufwei- 
sen. Der Schritt S5 ist diesbezuglich identisch mit dem 
Schritt S3. 



GR 99 P 273 




10 





Im Schritt S6 warden die WSrter, die mehr Grapheme als Phone- 
me besitzen und im Schritt S4 nicht korrekt zugeordnet werden 
konnten, von neuem untersucht, wobei jeweils ein einzelnes 
Graphem einem einzelnen Phonem in Leserichtung (von links 
nach.rechts) zugeordnet wird. Jede einzelne Zuordnung wird 
tiberpriift, ob sie den bisher ermittelten Zuordnungen ent- 
spricht. Ergibt diese Uberpriifung, dafi eine Graphem-Phonem- 
Zuordnung nicht den bisherigen Zuordnungen entspricht, das 
heifit, daiJ sie nicht die notwendige Haufigkeit besitzt, geht 
das Verfahren auf die letzte Graphem-Phonem- Zuordnung zurtick 
und verbindet das Graphem dieser Graphem-Phonem- Zuordnung mit 
dem in Leserichtung nachstem Graphem zu einer Graphemeinheit • 
Die ubrigen Phoneme und Grapheme werden dann wieder einander 
15 einzeln zugeordnet^ wobei wieder\im jede einzelne Graphem- 
Phonem- Zuordnung uberprtift wird. 

Bei diesem Verf ahrensschritt konnen innerhalb eines Wortes 
eine oder mehrere Graphemeinheiten erzeugt werden, wobei die 
20 Graphemeinheiten in der Kegel zwei Grapheme umfassen. Es ist 
jedoch auch moglich, dafi die Graphemeinheiten drei oder mehr 
Grapheme umfassen konnen. 

Ein Wort, bei dem der Schritt S6 zu einer erf olgreichen Zu- 
ordnung ftihrt ist z.B. das englische Wort ^abasement"" : 

GrapTieme: abasement 
Phoneme: xbes mint 

30 Bei ^abasement'' erfolgt die paarweise Zuordnung korrekt bis 

zum Graphem ,,e'' das zunachst dem Phonem „m'\ zugeordnet wird. 
Diese Zuordnung steht im Widerspruch zu den bisher ermittel- 
ten Zuordnungen, weshalb das Verfahren auf die letzte erfolg- 
reiche Zuordnung des Graphems „s'' zum Phonem „s'' zurtlckgeht 

35 und das Graphem „s'' mit dem Graphem „e'^ zur Graphemeinheit 

„se^' verbindet. Die weitere paarweise Zuordnung der Grapheme 



GR 99 P 2739 




8 

zu den Phonemen entspri.cht wieder den bisher ermittelten Zu- 
ordnungen, weshalb sie dementsprechend ausgefUhrt werden. 

Im Schritt S7 werden die im Schritt S6 untersuchten Worter, 
die nicht vollstandig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 

Im Schritt S8 werden die Worter, die mehr Grapheme als Phone- 
me besitzen und in den Schritten S4 und S6 nicht korrekt zu- 
geordnet werden konnten, von Neuem untersucht, wobei jeweils 
ein einzelnes Graphem einem einzelnen Phonem zunachst in Le- 
serichtung (von links nach rechts) zugeordnet wird. Jede e' 
zelne Zuordnung wird wiederum tiberpruft, ob sie den bisher 
ermittelten Zuordnungen entspricht. Ergibt diese Oberprtifung, 
daB eine Graphem- Phonem- Zuordnung nicht den bisherigen Zu- 
ordnungen entspricht, das heilit, daB die Zahl der HSufigkeit 
unter einem vorbestimmten Schwellwert liegt, werden entgegen 
der Leserichtung (von rechts nach links) einzelne Grapheme 
einzelnen Phonemen zugeordnet. Bleibt bei dieser Methode le- 
diglich ein Phonem iiber, dem kein Graphem zugeordnet werden 
kann, so werden die restlichen Grapheme zu einer Graphemein- 
heit zusammengefafit und dem einen Phonem zugeordnet. 

Bei diesem Verf ahrensschritt kann innerhalb eines Wortes eine 
Graphemeinheit erzeugt werden. 



Ein Wort, bei dem der Schritt SB zu einer erfolgreichen Zu- 
ordnung fUhrt, ist z.B. das englische Wort „amongst": 

Grapheme; a m o ng s t 
Phoneme: x m A G s t 

Bei „amongst" erfolgt die paarweise Zuordnung von links nach 
rechts korrekt bis zum Graphem „n", das zunachst dem Phonem 
„G" zugeordnet wird. Diese Zuordnung steht im Widerspruch zu 
den bisher ermittelten Zuordnungen, weshalb eine paarweise 
Zuordnung von rechts nach links ausgefiihrt wird. Diese Zuord- 
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nung verlauft korrekt bis zum Graphem ,,g"" das zunSchst dem 
Phonem ,,G^' zugeordnet wird. Diese Zuordnung steht im Wider- 
spruch zu den bisher ermittelten Zuordnungen. Als einziges 
Phonem dem kein Graphem zugeordnet werden kann, verbleibt das 
Phonem ,,G'' . Diesem Phonem ,,G^' werden nun die restlichen Gra- 
pheme ,,n'' und r,g^\ die zu einer Graphemeinheit zusammengef afit 
werden, zugeordnet. 

Im Schritt S9 werden die im Schritt S8 untersuchten W5rter, 
die nicht vollstandig erfolgreich zugeordnet worden sind, 
markiert und deren Zuordnungen werden wiederum geloscht. 



Im Schritt SIO werden die Worter, die weniger Grapheme als 
Phoneme besitzen untersucht, wobei die einzelnen Grapheme den 
15 einzelnen Phonemen paarweise zugeordnet werden, wobei die 

Grapheme auch den zu den zugeordneten Phonemen benachbarten 
Phonemen zugeordnet werden. Von all diesen Zuordnungen wird 
die jeweilige Haufigkeit bestimmt, und falls festgestellt 
wird, daB ein Graphem zwei benachbarten Phonemen mit einer 
20 groBen Haufigkeit zugeordnet werden kann, werden diese beiden 
Phoneme zu einer Phonemeinheit zusammengef aJ5t, falls die bei- 
den Phoneme zwei Vokale oder zwei Konsonanten sind, 

Ein Wort, bei dem der Schritt S9 zu einer korrekten Zuordnung 
5 fuhrt, ist z.B. das englische Wort „axes^': 

Grapheme: ax e s 
Phoneme: @ ks i z 

30 Bei „axes'' ergibt die Zuordnungen des Graphems ,,x'' zu den 

Phonemen „k^^ und „s^^ jeweils eine Haufigkeit, die uber einem 
vorbestimmten Schwellwert liegt, so daB diese beiden Phoneme 
zur Phonemeinheit „ks'' zusammengef aBt werden. Die ubrigen 
Grapheme und Phoneme werden wiederum paarweise zugeordnet. 
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Im Schritt SIO ist es auch moglich, dafi mehrere Phonemeinhei- 
ten gebildet werden oder daB die Phonemeinheiten auch mehr 
als zwei Phoneme lamfassen. 

Im Schritt Sll wird wiederum eine Korrektur durchgefUhrt, bei 
der die Zuordnungen, die selten auftreten, geloscht werden, 
und die werter in denen diese widerspruchlichen Zuordnungen 
festgestellt worden sind als nicht-zugeordnet markiert wer- 
den. Der Schritt Sll entspricht im wesentlichen den Schritten 
S3 und S5, wobei hier jedoch auch die bis zum Schritt SIO er- 
mittelten Graphem-Phonem-Zuordnungen beriicksichtigt werden. 

Der Schritt S12 entspricht im wesentlichen dem Schritt SIO, 
das heiJJt, dafi Phonemeinheiten aus benachbarten Phonemen ge- 
bildet werden, wobei im Schritt S12 die Phonemeinheiten nicht 
auf zwei Konsonanten oder zwei Vokale beschrankt sind, son- 
dern auch eine Mischung aus Vokalen und Konsonanten beinhal- 
ten konnen. 

Im Schritt S13 wird wiederum ein Korrekturvorgang durchge- 
fUhrt, der dem des Schrittes Sll entspricht, wobei alle mitt- 
lerweile ermittelten Graphem-Phonem-Zuordnungen beriicksich- 
tigt werden. 

Im Schritt S14 werden die in den Schritten SIO und S12 ermi 
telten Phonemeinheiten verwendet, um WSrter, deren Grapheme , 
nicht den Phonemen korrekt zugeordnet werden konnten, erneut 
zu untersuchen, wobei fUr benachbarte Phoneme, far die be- 
reits eine Phonemeinheit existiert, diese eingesetzt wird. 
Optional ist es auch moglich, daB die bisher ermittelten Gra- 
phemeinheiten berucksichtigt werden. Sollte von dieser Option 
kein Gebrauch gemacht werden, konnen hier Graphemeinheiten 
erneut gemSB den Methoden nach den Schritten S4, S6 und S8 
gebildet werden. 

Ein Wort, das die Zuordnung gemaB dem Schritt S14 zeigt, ist 
das englische Wort „accumulated" : 
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Grapheme: accu mu lated 
Phoneme: xk yumyxletid 

Bei diesem Wort werden zunachst die Phoneme ,^y^^ und ,,u'' bzw, 
„y'' und ,,x'' durch die Phonemeinheiten „yu'^ bzw. „yx'' ersetzt. 
Da diese Phonemeinheiten bereits bei den vorhergehenden 
Schritten ermittelt worden sind, wird im Schritt S14 von der 
Option Gebrauch gemacht, daJ5 auch die Graphemeinheiten be- 
rucksichtigt werden, so wird fur die beiden Grapheme „c'' und 
,,c'' die Graphemeinheit ,,cc^' verwendet. Die paarweise Zuord- 
nungen der einzelnen Grapheme bzw. Graphemeinheiten zu den 
einzelnen Phonemen bzw. Phonemeinheiten ergibt eine korrekte 
Zuordnung. 



Wird von der Option der Berticksichtigung der Graphemeinheiten 
kein Gebrauch gemacht, so werden, wie es im Schritt S6 der 
Fall ist, die einzelnen Grapheme den einzelnen Phonemen bzw. 
Phonemeinheiten zugeordnet, wobei im vorliegenden Fall bei 
20 der Zuordnung des Graphems ,,c^^ zu der Phonemeinheit ,,yu^^ eine 
zu den bisherigen Zuordnungen widerspriichliche Zuordnung er- 
folgt. Diese widersprUchliche Zuordnung wird festgestellt und 
das Graphem „c'" wird mit dem vorhergehenden . Graphem ,,c'' zu 
„cc'' zusammengef afit . Dies fUhrt wiederum zu einer korrekten 
Zuordnung der Grapheme zu den Phonemen. 



Im Schritt S15 wird wiederum geprtift, ob widerspriichliche Zu- 
ordnungen erfolgt sind. Werden derartige widerspruchliche Zu- 
ordnungen festgestellt, werden sie und die weiteren Zuordnun- 
30 gen des jeweiligen Wortes geloscht. 

Mit dem Schritt S16 wird das Verfahren beendet. 

Die Anzahl der im Schritt S15 ermittelten widersprlichlichen 
35 Zuordnungen ist ein Merkmal fUr die Qualitat der Aufbereitung 
der Ausgangsdatenbank zu der durch das Verfahren erhaltenen 
Datenbank mit den einzelnen Graphem- Phonem- Zuordnungen. 
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Das erfindungsgemafie Verfahren konnte schon sehr erfolgreich 
zur automatischen Erstellung einer Datenbank far die deutsche 
Sprache eingesetzt werden, wobei eine Zuordnungsdatenbank mit 
insgesamt 47 Phonemen und 92 Graphemen aufgebaut worden ist 
Bex der Erstellung der Datenbank fur die englische Sprache 
die eme wesentlich kompliziertere Graphem-Phonem-Zuordnung 
besitzt, ergaben sich 62 Phoneme und 222 Grapheme, deren Zu- 
ordnungen nicht so gut wie bei der deutschen Sprache war Die 
grofiere Anzahl von Graphemen in der englischen Sprache macht 
deren Bearbeitung kompliziert. Es kann deshalb zweckmaMg 
sexn, ein Null-Phonem einzufUhren, das heiBt ein Phonem oh 
exnen Laut. Ein derartiges Null-Phonem kann z.B. der engli 
schen Graphemeinheit „gh« zugeordnet werden, das in der eng- 
Ixschen Sprache stimmlos in Kombination mit den Graphemen 
„ei", „ou- und „au« vorkommt. WUrde man kein derartiges Null- 
Phonem einftihren, mtifite man zusatzlich zu den Graphemen ei« 
„ou" und „au« die Phoneme „eigh", „ough« und „augh« einfUh- ' 
ren. Das Null-Phonem erlaubt eine Verringerung der Anzahl der 
Grapheme, da „eigh-, „ough" und „augh" jeweils durch ei« 



,ou" und „au" in Kombination mit 



,gh^^ ersetzt werden konnen. 



Hxerdurch kann die Zuverlassigkeit des Verfahrens gesteigert 
werden. Insbesondere erlaubt eine geringere Anzahl von Phone- 
men bzw. Graphemen eine einfachere, schnellere und zuverlas- 
sxgere Anwendung bei einem neuronalen Netzwerk, das mittels 
der mxt dem erf indungsgemSfien Verfahren erstellten DatenbaJ 
trainiert wird. 




Exn solches neuronales Netzwerk ist in Fig. 2 schematisch 
verexnfacht dargestellt, das ftinf Eingangsknoten und zwei 
Ausgangsknoten aufweist. An drei der ftlnf Eingangsknoten wer- 
den drei aufeinanderfolgende Buchstaben Bl, B2 und B3 eines 
Wortes, das in Phoneme umgesetzt werden soil, eingegeben. Auf 
der Ausgangsseite gibt es zwei Knoten, wobei einer der beiden 
das ^eweilige Phonem Ph und der andere Knoten eine Gruppie- 
rung Gr ausgibt. An den beiden weiteren Eingangsknoten wird 
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die zuletzt ausgegebene Gruppierung Gri und das zuletzt aus- 
gegebene Phonem Phi eingegeben. 

Dieses Netzwerk wird mit den Wortern der mit dem erfindungs- 
gemafien Verfahren aufbereiteten Datenbank trainiert, deren 
Gr aphem- Phonem- Zuordnungen keinen Wider spruch zu den tlbrigen 
Gr aphem- Phonem- Zuordnungen darstellen, das heifit, den Wor- 
tern, deren Grapheme korrekt den Phonemen zugeordnet werden 
konnten. 



Das neuronale Netzwerk ermittelt jeweils fur den mittleren 
Buchstaben B2 ein Phonem, wobei der jeweils im Kontext vor- 
hergehenden und nachfolgende Buchstabe und das dem zu ermit- 
telnden Phonem vorhergehende Phonem Phi berucksichtigt wer- 
15 den. Stellen die beiden auf einanderf olgenden Buchstaben B2 
und B3 eine Grapheme inhe it dar, so ergibt sich eine Ausgabe 
fur die Gruppierung Gr von zwei. 1st der Buchstabe B2 kein 
Bestandteil einer aus mehreren Buchstaben bestehenden Graphe- 
meinheit, so wird als Gruppierung Gr eine eins ausgegeben. 

20 

Auf der Eingangsseite wird die jeweils letzte Gruppierung Gri 
berucksichtigt, wobei im Falle einer Gruppierung von Gri von 
zwei dem mittleren Buchstaben B2 kein Phonem Ph zugeordnet 
wird, da dieser Buchstabe bereits mit der letzten Graphemein- 
heit berucksichtigt worden ist. In diesem Fall wird der zwei- 
te Buchstabe der Gruppierung tibersprungen. 

Beim Training des neuronalen Netzwerkes werden, wie es an 
sich bekannt ist, jeweils die Werte fur die Eingangsknoten 
und fiir die Ausgangsknoten dem neuronalen Netzwerk vorgege- 
ben, wodurch sich das neuronale Netzwerk die jeweiligen Zu- 
ordnungen im Kontext der Worter aneignet, 

Es kann zweckmaBig sein, mehr als drei Buchstaben an der Ein- 
35 gangsseite des neuronalen Netzwerkes vorzusehen, insbesondere 
bei Sprachen, wie der englischen Sprache, in welcher mehrere 
Buchstaben zur Darstellung eines einzigen Lautes verwendet 
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werden. Ftir die deutsche Sprache ist es zweckmaBig an der 
Eingangsseite drei Oder fUnf Knoten zur Eingabe von Buchsta- 
ben vorzusehen, wohingegen fiir die englische Sprache funf, 
sieben oder sogar neun Knoten zur Eingabe von Buchstaben 
zweckmafiig sein kbnnen. Bei neun Knoten konnen Graphemeinhei 
ten mit bis zu fUnf Buchstaben behandelt werden. 

Ist das neuronale Netzwerk einmal mit der erf indungsgemafien 
Datenbank trainiert worden, kann es zur automat ischen Erzeu- 
gung von Sprache verwendet werden. Eine Vorrichtung zum Er- 
zeugen von Sprache, in der das erf indungsgemaBe neuronale 
Netzwerk eingesetzt werden kann, ist schematisch in Fig. 3 
gezeigt . 

Diese Vorrichtung ist eine elektronische Datenverarbeitungs- 
vorrichtung 1 mit einem internen Bus 2, an dem eine zentrale 
Prozessoreinheit 3, eine Speichereinheit 4, ein Interface 5 
und eine akustische Ausgabeeinheit 6 angeschlossen sind. Das 
Interface 5 kann iiber eine Datenleitung 8 eine Verbindung zu 
einer weiteren elektronischen Datenverarbeitungsvorrichtung 
herstellen. An der akustischen Ausgabeeinheit 6 ist ein Laut- 
sprecher 7 angeschlossen. 

In der Speichereinheit 4 ist das erf indungsgemSBe neuronale 
Netzwerk in Form eines Computerprogrammes abgespeichert, d 
mittels der zentralen Prozessoreinheit 3 zur Ausftthrung ge 
bracht werden kann. Ein Text, der der elektronischen Daten- 
verarbeitungsvorrichtung auf beliebige Weise, z.B. Uber das 
Interface 5, zugeftihrt wird, kann dann mit einem entsprechen- 
den Hilfsprogramm dem neuronalen Netzwerk zugefUhrt werden, 
das die Grapheme, bzw. Buchstaben des Textes in entsprechende 
Phoneme umsetzt. Diese Phoneme werden in einer Phonem-Datei 
gespeichert, die Uber den internen Bus 2 an die akustische 
Ausgabeeinheit 6 weitergegeben wird, mit der die einzelnen 
Phoneme in elektrische Signale umgesetzt werden, die vom 
Lautsprecher 7 in akustische Signale gewandelt werden. 
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Mit einer solchen elektronischen Datenverarbeitungsvorrich- 
tung 1 kann auch das erf indungsgemSBe Verfahren zxam Aufberei- 
ten einer Datenbank ausgefUhrt werden, wobei das Verfahren 
wieder\xm in Form eines Computerprogrammes im Speicher 4 ge- 
5 speichert ist und von der zentralen Prozessoreinheit 3 zur 
AusfUhrung gebracht wird, wobei es eine Ausgangsdatenbank, 
die ein WSrterbuch in Schreib- und Lautschrift darstellt, in 
eine Datenbank aufbereitet, in der die einzelnen Laute, die 
Phoneme, den einzelnen Buchstaben bzw. Buchstabenkombinatio- 
10 nen, den Graphemen zugeordnet sind. 

^^^^^ Die Zuordnung der einzelnen Grapheme zu den einzelnen Phone- 
men kann in der aufbereiteten Datenbank durch Leerzeichen ge- 
speichert werden, die zwischen den einzelnen Phonemen und 
15 Graphemen eingefUgt werden. 

Die das erf indungsgemaJJe Verfahren bzw. das neuronale Netz- 
werk darstellenden Computerprogramme konnen auch auf beliebi- 
ge elektronisch lesbare Datentrager gespeichert werden und so 
20 auf eine weitere elektrische Datenverarbeitungsvorrichtung 
tibertragen werden. 




30 



Die Erfindung ist oben anhand eines Ausftihrungsbeispieles Be- 
schrieben, mit dem eine Datenbank ftir die Sprachsynthese er- 
zeugt wird. Im Rahmen der Erfindung ist es selbstverstandlich 
auch moglich, die erf indungsgemSB erzeugte Datenbank bei der 
Spracherkennung zu verwenden, da Spracherkennungsverf ahren 
oftmals Datenbanken mit Graphem-Phonem-Zuordnungen gebrau- 
chen . 



Eine Spracherkennung kann bspw. mit einem neuronalen Netzwerk 
ausgeftihrt werden, das mit der erf indungsgemafi erstellten Da- 
tenbank trainiert worden ist. An der Eingangsseite weist die- 
ses neuronale Netzwerk vorzugsweise drei Eingangsknoten auf, 
35 an welchen das in ein Graphem vimzusetzende Phonem eingegeben 
und falls vorhanden zumindest ein im Wort vorhergehendes und 
ein nachfolgendes Phonem eingegeben werden. An der Ausgangs- 
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seite weist das neuronale Netzwerk einen Knoten auf, an dem 
das dem Phonem zugeordnete Graphem ausgegeben wird. 

im Rahmen der Erfindung liegt somit jede Anwendung des Er- 
stellens und Anwenden der erf indungsgexaafi erstellten Daten- 
bank am Bereich der automatischen Sprachverarbeitung 



GR 99 P 2739, 



17 



Patentansprtlche 



10 




15 



20 



30 



35 



1. Verfahren zum Aufbereiten einer Datenbank fUr die au- 
tortiatische Sprachverarbeitung, bei welchem anhand der Worter 
in Form von Graphemen und Phonemen enthaltenden Datenbank ei- 
ne Zuordnung der Grapheme zu den Phonemen erstellt wird, um- 
fassend folgende Schritte: 

a) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die dieselbe Anzahl Grapheme und Phoneme besitzen, wobei die 
Grapheme und Phoneme einander paarweise zugeordnet werden, 

b) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die mehr Grapheme als Phoneme besitzen, wobei zunachst alle 
Grapheme den Phonemen paarweise zugeordnet werden, bis sich 
ein Zuordnungsfehler auf Grundlage der bisher ermittelten Zu- 
ordnungen oder lediglich am Wortende ein oder mehrere Graphe- 
me vorhanden sind, die keinem Phonem zugeordnet sind, und Zu- 
saramenfassen mehrerer Grapheme zu einer Grapheme inhe it und 
Zuordnen eines Graphems zu der Phonemeinheit, und 

c) Zuordnen der Grapheme zu den Phonemen aller Worter, 
die weniger Grapheme als Phoneme besitzen, wobei mehrere Pho- 
neme zu einer Phonemeinheit zusammengef afit werden und ihnen 
ein einziges Graphem derart zugeordnet wird, daB die ubrigen 
Gr aph em- Phonem- Zuordnungen des zu analysierenden Wortes den 
unter a) und b) gefundenen Zuordnungen entsprechen, 

d) Zuordnen der bisher nicht zuordbaren Worter, wobei 
die Worter nach den unter c) ermittelten Phonemeinheiten 
und/oder den unter b) ermittelten Graphemeinheiten untersucht 
werden und die Grapheme zu den Phonemen unter Beriicksichti- 
gung der Phonemeinheiten und/oder Graphemeinheiten zugeordnet 
werden, und 

wobei zumindest nach Schritt a) ein Korrekturschritt aus- 
gefuhrt wird, mit dem Zuordnungen von Wortern, die im Wider- 
spruch zu den im Schritt a) ermittelten weiteren Zuordnungen 
stehen, geloscht werden, 

2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet. 
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dafi nach jedem der Schritte a) bis d) ein Korrektur- 
schritt ausgefUhrt wird, mit dem Zuordnungen von Wortern, di 
im Widerspruch zu den in den jeweiligen Schritten bzw. Teil- 
schritten ermittelten weiteren Zuordnungen stehen, gel5scht 
warden . 

3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet/ 
dafi der Korrekturschritt auf Grundlage einer Statistik 

ausgeftlhrt wird, mit welcher die HSufigkeit der einzelnen 
Graphem-Phonem-Zuordnungen erfafit wird, wobei mit dem Korrek 
turschritt ermittelt wird, welche Zuordnungen eine Haufigk 
aufweisen, die unter einem vorbestimmten Schwellwert liegt, 
und diese Zuordnungen loscht. 

4. Verfahren nach Anspruch 3, 
dadurch gekennzeichnet, 
daJi die Worter, die eine geloschte Zuordnung enthalten 

als nicht zugeordnet markiert werden, so dafi sie bei einem 
der nachfolgenden Schritte wieder berucksichtigt werden kOn- 



nen. 



5. Verfahren nach einem der Ansprilche 1 bis 4, 
dadurch gekennzeichnet, 

dafi beim Zuordnen der Grapheme zu den Phonemen aller Wor 
ter, die weniger Grapheme als Phoneme besitzen, lediglich V 
kale Oder Konsonanten zu einer Phonemeinheit zusammengef afit 
werden . 

6. Verfahren nach einem der AnsprUche 1 bis 4, 
dadurch gekennzeichnet, 

dafi beim Zuordnen der Grapheme zu den Phonemen aller W6r- 
ter, die weniger Grapheme als Phoneme besitzen, zunSchst Vo- 
kale Oder Konsonanten in einer Phonemeinheit zusammengef afit 
und entsprechend dem Schritt c) zugeordnet werden, und falls 
weiterhin WSrter, die weniger Grapheme als Phoneme besitzen, 
nicht zugeordnet werden konnen, auch Vokale mit Konsonanten 



GR 99 P 273 




19 

zu einer Phonemeinheit zusammengef aBt und entsprechend dem 
Schritt c) zugeordnet werden. 



10 




15 



20 



30 



35 



7. Verfahren nach einem der AnsprUche 1 bis 6, 
dadurch gekennzeichnet, 

daB beim Zuordnen der Grapheme zu den Phonemen aller Wor- 
ter, die itiehr Grapheme als Phoneme besitzen, das oder die 
restlichen, am Wortende vorgesehenen Grapheme, zusammen mit 
dem letzten Graphem, das dem letzten Phonem des Wortes zuge- 
ordnet worden ist, zu einer Graphemeinheit zusammengef afit 
wird und die dem letzten Phonem des Wortes zugeordnet wird. 

8. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, 

dafl falls sich ein Zuordnungswiderspruch auf Grundlage 
der bisher ermittelten Zuordnungen ergibt, an die langste zu- 
ordnungswiderspruchsfreie Kette von Graphemen das nachste 
Graphem mit dem letzten Graphem der Kette zu einer Graphe- 
meinheit zusammengefaBt und die Zuordnung erneut versucht 
wird, wobei falls wiederum keine Graphem- Phonem- Zuordnung 
erstellt werden kann, das nachste Graphem mit der zuletzt ge- 
bildeten Graphemeinheit zusammengef alit und die Zuordnung er- 
neut versucht wird. 

9. Verfahren nach Anspruch 8, 
dadurch gekennzeichnet, 

daB, falls keine Graphem- Phonem-Zuordnung eines Wortes 
mit mehreren Graphemen als Phonemen erzielt werden kann, die 
Zuordnung zunachst mit einer am Anfang des Wortes beginnenden 
paarweisen Zuordnung gestartet wird, bis sich ein Zuordnungs- 
widerspruch auf Grundlage der bisher ermittelten Zuordnungen 
ergibt, worauf eine am Ende des Wortes beginnende paarweise 
Zuordnung ausgefiihrt wird, und wenn lediglich ein einzelnes 
nicht zugeordnetes Phonem ubrig bleibt, werden die restlichen 
Grapheme zu einer Graphemeinheit zusammengef aBt und dem einen 
nicht zugeordnetem Phonem zugeordnet. 
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10. Verfahren zum Trainieren eines neuronalen Netzwerkes 
zum Zuordnen von Graphemen zu Phonemen ftir die automatische 
Sprachverarbeitung, 

dadurch gekennzeichnet, 
dafi das neuronale Netzwerk mit einer nach dem Verfahren 
der Ansprache 1 bis 9 aufbereiteten Datenbank trainiert wird 
wobei die Grapheme an Eingangsknoten und die zugehorigen Pho- 
neme an einem Ausgangsknoten des neuronalen Netzwerkes einge- 
geben werden. 



11. verfahren zum Zuordnen von Graphemen zu Phonemen be 
der Synthetisierung von Sprache, 

dadurch gekennzeichnet, 
dafi die Graphem-Phonem-Zuordnung durch eine Zuordnung ei- 
nes Ausgangsmusters zu einem Eingangsmusters des nach dem 
Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefiihrt wird, wobei das Eingangsmuster zumindest den zuzu- 
ordnenden Buchstaben und falls vorhanden zumindest einen im 
wort vorhergehenden und einen nachfolgenden Buchstaben umfafit 
und das Ausgangsmuster ein Phonem aufweist. 



12. Verfahren nach Anspruch 11, 
dadurch gekennzeichnet, 
dafi das Eingangsmuster mehrere dem zuzuordnenden Buchsta 
ben vorhergehende und nachfolgende Buchstaben umfafit, wobei 
es vorzugsweise jeweils drei vorhergehende und nachfolgende 
Buchstaben umfafit. 



13. Verfahren nach Anspruch 11 oder 12, 
dadurch gekennzeichnet, 

dafi das Eingangsmuster das letzte Ausgangsmuster umfafit 

14. Verfahren nach einem der AnsprUche 11 bis 13 
dadurch gekennzeichnet. 
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daB das Ausgangsmuster eine Gruppierung der Buchstaben, 
d.h., die Anzahl der zu einer Grapheme inhe it im Eingangsmu- 
ster zusammengef aBten Buchstaben aufweist. 

5 15. Verfahren zum Zuordnen von Phonemen zu Graphemen bei 

der Erkennung von Sprache, 

dadurch gekennzeichnet, 
daI3 die Graphem-Phonem-Zuordnung durch eine Zuordnung ei- 
nes Ausgangsmusters zu eineiti Eingangsmusters des nach dem 
10 Verfahren des Anspruchs 10 trainiertem neuronalen Netzwerkes 
ausgefuhrt wird, wobei das Eingangsmuster zumindest das zuzu- 
ordnende Phonem und falls vorhanden ein im Wort vorhergehen- 
des und ein nachf olgendes Phonem umfalit und das Ausgangsmu- 
ster einen Buchstaben aufweist. 
15 

16. Neuronales Netzwerk fUr die automatische Sprachverar- 
beitung, mit welchem automatisch eine Zuordnung zwischen Gra- 
phemen und Phonemen hergestellt werden kann, 
dadurch gekennzeichnet, 
20 daB das neuronale Netzwerk gemaB dem Verfahren nach An- 

spruch 10 trainiert worden ist. 



17. Neuronales Netzwerk nach Anspruch 16, 
dadurch gekennzeichnet, 
daB es auf einem elektronisch lesbaren Datentrager ge- 
speichert ist 
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Zusammenf assung 

Verfahren zum Aufbereiten einer Datenbank fur die automati- 
sche Sprachverarbeitung 

5 

Mit einer durch das erf indungsgemafie Verfahren hergestellten 
Datenbank kann ein neuronales Netzwerk zum Synthetisieren 
bzw. Erkennen von Sprache trainiert werden* Mit dem trainier- 
ten neuronalen Netzwerk konnen die Grapheme, bzw, Buchstaben 
10 eines Textes in die entsprechenden Phoneme umgesetzt werden. 



Figur 2 
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